1.1 構成
MN-Core 2は、ツリー状に階層化されたメモリ間での集団通信と、そのツリーの葉にあたる多数の行列ベクトル積専用回路付き演算ユニットでの浮動小数点数演算を、VLIW形式の命令により並列動作させることで、高い実効性能・電力性能を実現するSIMD並列方式のアクセラレータボードである。
キャッシュは存在せず、すべてのボード内データ転送は機械語命令で明示的に指定される。
機械語命令は制御構造の存在しない、 1 ボードに対して単一のストリームである。
キャッシュの代わりに、ツリーの葉には演算ユニットに加えて大容量のローカルメモリ(SRAM)が存在する。
データの移動をできるだけツリーの葉側に留めるように並列演算を配置することで、高帯域なデータ移動を低コストに実現し、演算効率を高められる。
1 ボードは 1 チップと周辺回路からなる。
1 チップはツリーの根にあたるトップレベルと、その子である 8 つのL2B (Level 2 Block)からなる。
L2B以下は次のようなツリーになっている。
1つのL2Bは 8 個のL1B (Level 1 Block)を子として持つ
1つのL1Bは 16 個のMAB (Matrix Arithmetic Block、行列演算ブロック)を子として持つ
1つのMABは 4 個のPEを子として持ち、また 1 つのMAU (Matrix Arithmetic Unit、行列演算ユニット)を持つ
よって例えばPEはボードあたり 4096 個あることになる。
L2BとL1BはそれぞれローカルにSRAMを持ち、L2BMおよびL1BMと呼ばれる。
PEはいくつかの種類のローカルメモリとALU (Arithmetic Logic Unit、整数演算ユニット)からなる。
L2Bは 2 つごと、計 4 つのグループに分かれており、グループごとに 1 つのPDM (PIU Data Memory、PIUはPCIe Interface Unit)というSRAMと、DRAMが付属する。
トップレベルは自グループおよび他グループの間で、PDM、DRAM、L2BMの 3 種のメモリ(上位記憶)間のデータ転送を行える。
第 0 番グループのPDMはホストとPCIeインターフェースで接続され、ホストとの入出力データ通信はすべてPDMを経由する。
上位記憶とL1BMおよびPE内ローカルメモリが冒頭で述べた『ツリー状に階層化されたメモリ』、MAUが『ツリーの葉にあたる多数の行列ベクトル積専用回路付き演算ユニット』にあたる。
https://gyazo.com/2368c5a1ce4967dbcc58c66066526650